Transición más allá de la solicitud general

Optimización mediante ajuste fino y arquitecturas especializadas

1. Más allá de la solicitud

Aunque la solicitud "poco ejemplo" es un punto de partida potente, escalar soluciones de IA suele requerir pasar a Ajuste fino supervisado. Este proceso incorpora conocimientos o comportamientos específicos directamente en los pesos del modelo.

La decisión: Solo debes realizar el ajuste fino cuando las mejoras en la calidad de la respuesta y la reducción de los costos de tokens superen significativamente el esfuerzo computacional y de preparación de datos requerido.

$Costo = Tokens \times Tasa$

2. La revolución de los modelos de lenguaje pequeños (SLM)

Modelos de lenguaje pequeños (SLMs) son variantes altamente eficientes y reducidas de sus contrapartes masivas (por ejemplo, Phi-3.5, Mistral Small). Se entrenan con datos altamente curados y de alta calidad.

Compromisos: Los SLM ofrecen una latencia significativamente menor y permiten el despliegue en el borde (ejecutándose localmente en dispositivos), pero sacrifican la inteligencia amplia y generalizada "parecida a la humana" que se encuentra en los grandes LLM.

3. Arquitecturas especializadas

Mezcla de expertos (MoE): Una técnica que escala el tamaño total del modelo manteniendo la eficiencia computacional durante la inferencia. Solo un subconjunto de "expertos" se activa para cualquier token dado (por ejemplo, Phi-3.5-MoE).
Multimodalidad: Arquitecturas diseñadas para procesar texto, imágenes y a veces audio simultáneamente, ampliando los casos de uso más allá de la generación de texto (por ejemplo, Llama 3.2).

La jerarquía de eficiencia

Siempre intenta primero Ingeniería de solicitudes primero. Si eso falla, implementa RAG (Generación aumentada por recuperación). Usa ajuste fino únicamente como el paso avanzado final de optimización.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

When does the course recommend proceeding with fine-tuning over prompt engineering?

When the benefits in quality and cost (reduced token usage) outweigh compute effort.

Whenever you need the model to sound more human-like.

As the very first step before trying RAG or prompt engineering.

Only when deploying to an edge device.

Question 2

Which model architecture allows scaling model size while maintaining computational efficiency?

Supervised Fine-Tuning (SFT)

Retrieval-Augmented Generation (RAG)

Mixture of Experts (MoE)

Multimodality

Challenge: Edge Deployment Strategy

Apply your knowledge to a real-world scenario.

You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.

Task 1

Select the appropriate model family and tokenizer for this multilingual, low-resource task.

Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.

Task 2

Define the deployment framework for high-performance local inference.

Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.